AI资讯新闻榜单内容搜索-Connection

马斯克Grok 4 Fast首发霸榜！2.5倍速秒杀GPT-5，成本暴降98%直追Gemini

xAI重磅推出Grok 4 Fast，创新融合推理与非推理双模式，支持200万token上下文。在NYT Connections基准和AA智能指数中表现卓越，超越多家顶级模型，标志着AI智能获取门槛的进一步降低。

来自主题: AI资讯

10216 点击 2025-09-21 11:15

成立7个月首发声！百亿美金独角兽万字雄文：攻克LLM推理非确定性难题

Thinking Machines Lab成立7个月，估值120亿美元，首次公开研究成果：LLM每次回答不一样的真凶——kernel缺乏批处理不变性。Lilian Weng更是爆猛料：首代旗舰叫 Connection Machine，还有更多在路上。

来自主题: AI技术研报

8193 点击 2025-09-11 19:54

ICML 2025 | 打破残差连接瓶颈，彩云科技&北邮提出MUDDFormer架构让Transformer再进化！

但在当今的深度 Transformer LLMs 中仍有其局限性，限制了信息在跨层间的高效传递。彩云科技与北京邮电大学近期联合提出了一个简单有效的残差连接替代：多路动态稠密连接（MUltiway Dynamic Dense (MUDD) connection），大幅度提高了 Transformer 跨层信息传递的效率。

来自主题: AI技术研报

7807 点击 2025-06-28 11:33

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

字节跳动豆包大模型团队于近日提出超连接（Hyper-Connections），一种简单有效的残差连接替代方案。面向残差连接的主要变体的局限问题，超连接可通过动态调整不同层之间的连接权重，解决梯度消失和表示崩溃（Representation Collapse）之间的权衡困境。在 Dense 模型和 MoE 模型预训练中，超连接方案展示出显著的性能提升效果，使收敛速度最高可加速 80%。

来自主题: AI技术研报

6450 点击 2024-11-07 17:41

几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型：从质疑Scaling到成为Scaling

本文提出了扩散模型中UNet的long skip connection的scaling操作可以有助于模型稳定训练的分析，目前已被NeurIPS 2023录用。同时，该分析还可以解释扩散模型中常用但未知原理的1/√2 scaling操作能加速训练的现象。

来自主题: AI技术研报

8725 点击 2024-02-29 13:52